[PRML 읽기] 2 - 확률론 개요(작성중 …)

probability density, expectation and covariance, Bayesian probabilities,Gausian distribution

Deep learning
Author

신호연

Published

January 15, 2023

PRML을 읽고 정리한 내용입니다.

Probability density function

확률밀도함수는 연속확률변수가 미소구간안에 속하는 사건에 대한 확률을 미소구간의 길이로 나눈 확률밀도값을 함숫값으로 가지는 확률함수로 정의합니다.

\[p(x) \overset{\Delta}{=} \lim_{\Delta x \rightarrow 0}\frac{p(x<X\leq x+\Delta x))}{\Delta x}\]

확률밀도함수를 정적분하면 확률변수가 임의의 구간안에 속하는 사건에 대한 확률을 얻을 수 있습니다.(증명)

\[\begin{aligned} P(a < X \leq b) = \int_{a}^{b}p(u)d(u) \end{aligned}\]

확률밀도함수는 다음의 두 가지 조건을 만족해야 합니다. 첫번째 식은 확률(밀도)는 반드시 0보다 크거나 같음을 의미합니다. 두번째 식에서 확률변수는 반드시 \((-\infty,\infty]\)인 구간안에 속함을 의미합니다.

\[\begin{align} p(x) \geq 0 \\ \int_{-\infty}^{\infty}f(t)dt = 1 \end{align}\]

Probabiltiy variable transform

이 부분의 내용은 PRML에 있는 내용을 각색한 부분입니다. 틀린부분이 있다면 알려주세요!!

연속확률변수 \(X\)의 확률밀도함수를 \(p_X(x)\)라 할 때, 변수를 변환하여 \(X\)\(Y\)에 관한 식\(X = g(Y)\)로 표현했다고 해봅시다. 목적은 확률변수 \(Y\)의 확률밀도함수 \(p_Y(y)\)를 얻는 것입니다. \(\Delta x\rightarrow 0 \Delta y \rightarrow 0\)이라고 한다면 다음이 성립합니다.

\[\begin{aligned} &\lim_{\Delta x \rightarrow 0}\frac{p(x < X \leq x + \Delta x)}{\Delta x} \times \Delta x \overset{\sim}{=} \lim_{\Delta y \rightarrow 0}\frac{p(y < Y \leq y + \Delta y)}{\Delta y} \times \Delta y \\ &\Longleftrightarrow p_X(x)dx \overset{\sim}{=} p_Y(y)dy \end{aligned}\]

윗식은 Jacobian factor에 의해 등식으로 바꿀 수 있습니다.

\[\begin{aligned} p_Y(y) &= p_X(x) \begin {vmatrix} \frac{dx}{dy} \end {vmatrix} \\ &= p_X(g(y))|g^{'}(y)| \end{aligned}\]

확률변수의 변환은 확률분포함수를 최대화 하는 문제에서 유용하게 사용할 수 있다고 합니다. 변환할 변수를 선택하면 최대화해야하는 확률함수를 바꿀 수 있습니다.

Sum rule & Product rule of continuous variable

이산확률변수에 대해서는 Sum rule과 Product rule을 살펴봤었지만 연속확률변수 대해서는 보지 않았었습니다. 연속확률변수의 경우 다음과 같습니다. 엄밀한 증명은 measure theroy로 증명해야 하므로 .. 생략하겠습니다.(간략한 증명)

\[\begin{aligned} &p(x) = \int_y f(x,y)dy \\ &p(x,y) = p(y|x)p(x) \end{aligned}\]

Expectations and Variances

함수의 기댓값(또는 평균)은 함숫값이 어떤 값을 중심으로 분포하는지를 알려줍니다. 가능한 모든\(x\)에 대하여 함숫값과 그때의 확률분포의 값을 곱하여 얻은 가중평균입니다.

\[\begin{aligned} &\mathbb{E}[f] = \sum_x p(x)f(x) \quad \text{If X is a discrete R.V} \\ &\mathbb{E}[f] = \int_x p(x)f(x)dx \quad \text{If X is a continuous R.V} \end{aligned}\]

표본의 크기가 무한할 경우, 표본으로 부터 구한 함숫값의 평균과 기댓값은 값이 같습니다. 이를 통해서 확률분포의 기댓값을 알 수 있다면 표본이 적당히 크기가 클 경우 함숫값이 어느정도 일지 대략적으로 예측할 수 있습니다.

\[\mathbb{E}[f] = \lim_{N \rightarrow \infty}\frac{1}{N}\sum_{n=1}^{N}f(x_n)\]

다변수함수는 여러개의 변수를 가지는 함수입니다. 따라서 각각의 변수가 따르는 확률분포중에서 하나를 선택하여 그때의 확률분포와 함숫값의 기댓값을 구할 수 있습니다. 이때 기댓값은 나머지 확률변수에 대한 함수가 됩니다.

\[\mathbb{E}_x[f(x,y)] = f(y)\]

함수의 조건부 기댓값은 조건부 확률분포와의 가중평균으로 정의할 수 있습니다. \(y\)가 조건으로 주어질 때, \(x\)의 조건부 기댓값은 다음과 같습니다.

\[\mathbb{E}_x[f|y] = \sum_x{p(x|y)}{f(x)}\]

확률변수 \(f(x)\)의 분산(variance)는 함수가 기댓값을 중심으로 얼마나 퍼져있는지 알려줍니다. 편차제곱의 기댓값(평균)으로 정의합니다.

\[\begin{aligned} &\mathbb{E}[x] = \int_xxp(x)dx \text{ or } \sum_xxp(x)\\ & \begin{aligned} \text{var}[x] &= \mathbb{E}[(x - \mathbb{E}[x])^2] \\ &= \mathbb{E}[x^2] - \mathbb{E}[x]^2\\ \end{aligned} \end{aligned}\]

두 개의 확률변수에 대해서 공분산은 다음과 같습니다.(2번째 식에 대한 전개)

\[\begin{align} \text{cov}[x,y] &= \mathbb{E}_{x,y}[\{x-\mathbb{E}[x]\}\{y-\mathbb{E}[y]\}] \\ &=\mathbb{E}_{x,y}[xy] - \mathbb{E}[x]\mathbb{E}[y] \end{align}\]

Appendix

확률밀도함수에 관한 여러가지 증명

누적분포함수는 연속확률변수가 \((-\infty,x]\)인 구간안에 속할 확률입니다.

\[F(x) = P(-\infty<X\leq x)\]

따라서,연속확률분포의 분자를 누적분포함수로 나타낼 수 있습니다. 이는 누적분포함수의 도함수가 확률밀도함수이며 누적분포함수의 기울기,변화율이 확률밀도함수임을 나타냅니다.

\[p(x) = \lim_{\Delta x \rightarrow 0}\frac{p(x<X\leq x+\Delta x))}{\Delta x} = \lim_{\Delta x \rightarrow 0}\frac{F(x+\Delta x) - F(x)}{\Delta x} = \frac{dF}{dx}\]

누적분포함수의 도함수가 확률밀도함수이므로 확률밀도함수의 적분은 누적분포함수입니다.

\[\int_{-\infty}^{x}f(t)dt = F(x) = P(-\infty<X\leq x)\]

임의의 구간 \((a,b]\)사이에 확률변수 \(X\)가 속하는 사건에 대한 확률은 다음과 같습니다.

\[\begin{aligned} P(a < X \leq b) &= P(-\infty < X \leq b) - P(-\infty < X \leq a) \\ &= F(b) - F(a) \\ &= \int_{-\infty}^{b}f(t)dt - \int_{-\infty}^{a}f(t)dt \\ &= \int_{a}^{b}f(t)dt \end{aligned}\]

공분산 전개하기

\[\begin{aligned} \text{cov}[x,y] &= \mathbb{E}_{x,y}[\{x-\mathbb{E}[x]\}\{y-\mathbb{E}[y]\}] \\ &=\mathbb{E}_{x,y}[xy - x\mathbb{E}[y] - y\mathbb{E}[x] + \mathbb{E}[x]\mathbb{E}[y]]\\ &=\mathbb{E}_{x,y}[xy] - \mathbb{E}_{x,y}[x\mathbb{E}[y]] - \mathbb{E}_{x,y}[y\mathbb{E}[x]] + \mathbb{E}[x]\mathbb{E}[y]]\\ \end{aligned}\]

여기서 \(\mathbb{E}_{x,y}[x\mathbb{E}[y]]\)는 다음과 같다.

\[\begin{aligned} \int_{\infty}^{\infty}\int_{\infty}^{\infty}x\mathbb{E}[y]p(y)p(x)dydx &= \int_{\infty}^{\infty}x\mathbb{E}[y]p(x)\bigg(\int_{\infty}^{\infty}p(y)dy\bigg)dx \\ &= \int_{\infty}^{\infty}x\mathbb{E}[y]p(x)dx \\ &= \mathbb{E}[y]\int_{\infty}^{\infty}xp(x)dx \\ &= \mathbb{E}[y]\mathbb{E}[x] \end{aligned}\]

마찬가지로 \(\mathbb{E}_{x,y}[y\mathbb{E}[x]]\)도 같은 값을 가진다. 따라서 다음과 같다.

\[\begin{aligned} \text{cov}[x,y] &= \mathbb{E}_{x,y}[xy] - \mathbb{E}_{x,y}[x\mathbb{E}[y]] - \mathbb{E}_{x,y}[y\mathbb{E}[x]] + \mathbb{E}[x]\mathbb{E}[y]]\\ &= \mathbb{E}_{x,y}[xy] - \mathbb{E}[y]\mathbb{E}[x] - \mathbb{E}[x]\mathbb{E}[y] + \mathbb{E}[x]\mathbb{E}[y] \\ &=\mathbb{E}_{x,y}[xy] - \mathbb{E}[x]\mathbb{E}[y] \end{aligned}\]